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摘 要 人 声 是 人 类 听觉 环境 中 最 熟知 和 重要 的 声音 , 传递 着 大 量 社会 相关 信息 。 与 视觉 人 脸 加 工 类 似 ， 大 
脑 对 人 声 也 有 着 特异 性 加 工 。 研 究 者 使 用 电 生理 、 脑 成 像 等 手段 找到 了 对 人 上 声 有 特异 性 反应 的 脑 区 ， 即 里 叶 
人 上 声 加 工区 (TVA),， 并 发 现 非 人 类 动物 也 有 类 似 的 特异 性 加 工区 域 。 人 上 声 加 工 主 要 涉及 言语 、 情 绪 和 身份 信息 
的 加 工 ， 分 别 对 应 于 三 条 既 相 互 独立 又 相互 作用 的 神经 通路 。 研 究 者 提出 了 双 通 路 模型 、 多 阶段 模型 和 整合 
模型 分 别 对 人 声 的 言语 、 情 绪 和 身份 加 工 进行 解释 。 未 来 研究 需要 进一步 讨论 人 声 加 工 的 特异 性 能 否 由 特定 
声学 特征 的 选择 性 加 工 来 解释 ， 并 深入 探究 特殊 人 群 (如 自 闭 症 和 精神 分 裂 症 患者 ) 的 人 声 加 工 的 神经 机 制 。 
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人 声 和 人 脸 是 人 类 听觉 环境 和 视觉 环境 中 非 

常 重要 的 刺激 ,两 者 传递 了 相似 的 社会 相关 信 
A. 比如 ,它们 都 传递 着 言语 (speech) 信 息 ( 由 人 声 
的 音素 和 人 脸 的 视 位 传递 ) 和 副 语言 (paralinguistic) 
言 息 (如 说 话 者 的 性 别 、 年 龄 、 情 绪 状态 ) (Belin, 
Bestelmeyer, Latinus, & Watson, 2011)。 越 来 越 多 
的 研究 发 现 人 声 加 工 与 人 脸 加 工 的 神经 机 制 存 在 
— BEISA iba « edgar 此 外 , Bruce 和 Young (1986) 建 立 的 人 脸 感知 
ree Riesen 018). eee rage E ade ici ead ola 
i 再 对 人 脸 的 情绪 信息 、 言 语 信 息 、 身 份 信息 分 别 


经 机 制 得 到 了 大 量 深 入 的 研究 ， 且 大 量 电 生 理 和 es NTE SAG 
tk 4 z 5 点 会 T He Lb th KI fi TE 
脑 成 像 研 究 的 证 据 表明 大 脑 有 特定 的 模块 来 加 工 人 


识别 出 人 声 之 后 , 会 有 三 条 神经 通路 分 别 对 人 声 
a nd 
| 中 的 言语 、 情 绪 、 身 份 信息 进行 更 加 精细 的 分 析 
2017; Caharel et al., 2011; Kanwisher, McDermott, i ee eas 
f . (Belin, Fecteau, & Bédard, 2004)。 关 于 人 声 加 工 ， 
& Chun, 1997; Navajas, Nitka, & Quiroga, 2017)。 近 = : anes 
is an ilar eae ioe 大 量 研究 主要 探索 了 人 声 的 言语 信息 加 工 ， 而 忽 
年 来 , 研究 者 们 采用 功能 磁 共 振 成 像 (functional 一 a a e oie 
ae f re 略 了 对 副 语言 信息 加 工 的 探索 (如 人 声 情绪 和 身 
magnetic resonance imaging, fMRI)、 近 红外 信息 分 earl 、 eet canto aes i 
份 信息 )。 进 化 心理 学 研究 表明 语言 是 在 人 类 进化 
和 社会 文化 发 展 过 程 中 由 非 语 言 发 声 ( 如 笑 声 、 哭 
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ff (near-infrared spectroscopy, NIRS)、 事 件 相关 
位 (event-related potential, ERP) 、 脑 磁 图 
(magnetoencephalography，MEG) 、 单 细胞 记录 
(single cell recordings) 等 技术 考察 了 人 脑 是 否 也 
存在 特异 性 的 人 声 加 工 模块 (Agus，Paquette， 
Suied, Pressnitzer, & Belin, 2017; Belin, Bodin, & 
Aglieri, 2018; Belin, Zatorre, Lafaille, Ahad, & Pike, 
2000; Capilla, Belin, & Gross, 2013; Perrodin, 
Kayser, Abel, Logothetis, & Petkov, 2015). 


此 


eae 泣 声 ) 逐 渐 演 变 而 来 的 ， 人 类 对 副 语言 加 工 的 神经 
YF PLS Pb Se es SE >d er ; : . . 
厅 科 学 研究 项 目 (18A036)。 机 制 要 早 于 言语 加 工 的 存在 (Fischer， 2017; Perrodin 
通信 作者 : 陈 杰 , E-mail: xlxchen@163.com et al., 2015; Schroeder, Kardas, & Epley, 2017). 
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因此 ,本文 将 重点 介绍 近年 来 人 声 加 工 的 认 
知 神经 科学 研究 进展 。 首 先 , 介绍 人 声 加 工 的 特 
异性 脑 机 制 ; 然后 从 人 声 的 言语 、 情 绪 和 身份 信 
息 加 工 三 个 方面 来 阐述 人 声 加 工 的 三 条 神经 通路 
及 理论 模型 ; 最 后 就 人 声 加 工 的 特异 性 、 特 殊 人 
群 的 人 声 加 工 及 自我 声音 加 工 等 方面 ， 对 未 来 研 
究 进行 展望 。 


2 人 声 加 工 的 特异 性 研究 


2.1 脑 成 像 研究 的 证 据 

Belin 等 (2000) 利 用 fMRI 技术 首次 发 现 对 人 声 
有 选择 性 反应 的 脑 区 位 于 显 上 沟 (superior temporal 
sulcus，STS)。 在 实验 中 ,他 们 让 被 试 聆听 人 类 声 
音 (言语 声音 ， 如 单词 ; ERA, MR I 
息 和 咳嗽 声 ) 和 非 人 类 声音 (如 自然 声音 动物 声音 
和 机 械 声 音 )， 结果 表明 无 论 人 声 中 是 否 包 含 言 语 ， 
人 声 都 比 非 人 声 激活 更 多 的 区 域 ， 且 双 侧 里 上 沟 
上 岸 (upper bank of STS) 对 人 声 的 神经 反应 最 强 。 
随后 ， 研 究 者 将 人 声 和 加 扰 人 声 ( 保 留 了 人 声 的 频 
谱 包 络 但 听 起 来 不 像 人 声 ) 以 及 与 人 声 的 频率 分 
布 保持 一 致 的 噪音 进行 了 比较 ,发 现 人 声 刺 激 比 
其 他 声音 引起 STS 的 中 央 区 域 更 大 的 激活 (Belin 
et al., 2000)。 鉴 于 动物 发 声 与 人 类 发 声 在 声学 特 
征 上 的 相似 性 ,研究 者 又 专门 考察 了 动物 发 声 和 
人 声 的 脑 激活 模式 ， 结 果 仍 表明 人 声 相 比 动物 发 
声 对 STS 的 前 部 有 更 强 的 激活 (Fecteau，Armony， 
Joanette, & Belin, 2004)。 尽 管 以 上 研究 都 证 明了 
STS 中 存在 人 声 的 选择 性 区 域 , 但 是 这 种 人 声 的 
选择 性 反应 也 可 能 是 由 于 STS 对 人 声 中 一 些 特定 
低级 声学 特征 进行 了 选择 性 反应 。 研 究 者 们 发 现 
人 声 比 其 他 声音 有 更 多 的 谐 波 结构 或 更 复杂 的 频 
(Leaver & Rauschecker, 2010; Lewis et al., 2009). 
因此 ， 有 研究 者 将 乐器 声 和 人 声 在 低级 声学 特征 
(如 音 高 、 音 强 、 谐 波 噪 声 比 和 频谱 轮廓 ) 上 进行 匹 
配 后 ,， 再 比较 了 乐器 声 和 人 声 的 脑 激活 特征 ， 结 
果 进 一 步 发 现 疾 上 回 或 沟 (superior temporal gyru/ 
sulcus, STG/S) 对 人 声 有 更 强烈 的 选择 性 反应 (Agus 
et al., 2017)。 

脑 成 像 研究 表明 ,类 似 于 视觉 皮层 的 梭 状 
人 脸 区 (fuisform face areas, FFA)， 人 类 听觉 皮层 
中 也 存在 对 人 声 进 行 特异 性 加 工 的 里 叶 人 声 区 
(temporal voice areas, TVA) ( 即 听 党 皮层 中 对 人 类 
声音 有 选择 性 反应 的 区 域 ), 沿 双 侧 STG/S 分 布 


E 


(Belin & Grosbras, 2010; Schirmer, 2018; Whitehead & 
Armony, 2018)。 最 近 ， 有 研究 者 采用 功能 磁 共振 人 
声 加 工区 域 定位 分 析 技 术 (f{MRI ‘voice localizer’) 
对 200 多 名 被 试 的 TVA 进行 了 快速 且 可 靠 的 定位 
分 析 (Pernet et al., 2015)。 研 究 结果 表明 大 多 数 被 
试 (94%) 的 双 侧 STG/S 对 人 类 声音 比 非 人 类 声音 
的 反应 更 加 强烈 。 聚 类 分 析 进 一 步 发 现 反 应 峰值 
的 位 置 沿 STG/S 的 前 、 中 和 后 部 分 布 。 

尽管 以 上 的 研究 表明 人 声 加 工 与 TVA 的 激活 
有 着 密切 的 关系 , 但 是 并 不 能 说 明 两 者 存在 因果 
关系 。 为 了 探究 两 者 的 因果 关系 ，Bestelmeyeb 
Belin 和 Grosbras (2011) 利 用 重复 经 颅 磁 刺激 技术 
(repetitive transcranial magnetic stimulation, rTMS) 
分 别 对 被 试 的 右 侧 TVA 和 控制 位 置 ( 右 侧 缘 上 回 ) 
进行 刺激 。 结 果 发 现 当 rTMS 刺激 控制 位 点 时 ， 被 
试 在 人 声 感 知 任务 ( 即 对 人 声 和 非 人 声 进行 分 类 ) 
和 响 度 识别 任务 ( 即 判 断 声音 的 响 度 ) 中 的 表现 水 
平 在 刺激 前 后 没有 出 现 显 著 变 化 ， 当 rTMS 刺激 
右 侧 TVA 时 , 被 试 在 人 声 感知 任务 中 的 表现 水 平 
较 刺激 前 有 所 下 降 ， 而 在 响 度 识别 任务 中 的 表现 
水 平 在 刺激 前 后 仍然 没有 变化 。 这 项 研究 首次 表 
明 TVA 与 人 声 加 工 之 间 存 在 着 因果 联系 ,进一步 
证 明 TVA 是 人 声 加 工 的 特异 性 脑 区 。 
2.2 电 生 理 研究 的 证 据 

除了 脑 成 像 研究 ， 电 生理 研究 也 证 明了 大 脑 
对 人 类 声音 有 特异 性 反应 。Levy, Granot 和 Bentin 
(2001) 采 用 oddball 范式 ， 证 被 试 聆听 13 种 乐器 分 
别 演奏 的 乐音 和 4 名 歌手 分 别 唱 出 的 乐音 以 及 钢 
人 琴 声 ， 其 中 钢琴 声 作为 靶 刺 激 (概率 10%)， 要 求 
被 试 对 靶 刺 激 做 出 按键 反应 。ERP 结果 发 现 相 对 
乐器 演奏 的 乐音 ， 歌 手 唱 出 的 乐音 在 声音 刺激 出 
现 320 ms 左右 会 诱发 显著 的 正 电位 成 分 这 一 成 
分 被 称 为 人 声 特 异性 脑 电 成 分 (VSR，voice-specific 
response), Charest 等 (2009) 采 用 鸟 声 、 人 声 和 环 
境 声音 作为 声音 刺激 ， 要 求 被 试 对 声音 类 别 进 行 
辨别 反应 ， 并 做 出 相应 的 按键 反应 。 研 究 结果 发 
现在 刺激 出 现 后 164~200 ms， 人 声 在 额 - 甄 电极 
比 其 他 种 类 的 声音 诱发 出 更 大 的 正成 分 。 这 个 脑 
电 成 分 被 称 为 “ 额 -里 区 正 向 电位 ”(fronto-temporal 
positivity to voice, FTPV), 它 是 人 类 声音 激活 TVA 
后 产生 的 电 生 理 成 分 , 属于 听觉 的 P2 成 分 。 由 于 
FTPV 与 人 脸 识别 的 早期 成 分 N170 在 时 间 进 程 上 
一 致 ， 所 以 研究 者 把 FTPV 称 为 听觉 上 的 N170。 
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这 一 成 分 反映 了 特异 性 的 人 声 早 期 知觉 加 工 。 后 
来 , Capilla (2013) 等 利用 MEG 技术 进一步 证 明了 
FTPVm (magnetic counterpart of the FTPV) 的 存 
在 。 他 们 让 被 试 聆听 一 系列 不 同 的 声音 刺激 ， 包 
括 人 声 刺激 (言语 人 声 和 非 言 语 人 声 ) 和 非 人 声 刺 
激 (动物 发 声 、 自 然 声 音 、 人 工 合成 声音 )， 并 要 求 
被 试 完成 不 同 注意 要 求 的 任务 (被 动 聆听 任务 、 
1-back 任务 和 对 人 声 - 非 人 声 分 类 的 任务 )。 结 果 
表明 在 刺激 呈现 后 150 ms， 大脑 就 能 够 对 人 声 和 
非 人 声 进行 区 分 , 并 在 220 ms 左右 FTPVm 达到 
峰值 .另外 , 在 三 种 不 同 的 任务 中 ， 人 声 都 能 诱发 
出 明显 的 FTPVm 成 分 且 该 成 分 来 源 于 双 侧 STG/S 
的 中 部 ， 大 部 分 与 TVA ee. 
2.3 3B SLAVE 

4 个 月 左右 的 婴儿 已 经 对 人 声 有 特异 性 反应 
了 。 研 究 者 采用 行为 偏好 范式 探究 了 3 个 月 内 的 
婴儿 的 听觉 偏好 (Vouloumanos, Hauser, Werker, & 
Martin, 2010)。 行 为 偏好 范式 是 通过 记录 婴儿 的 吸 
史 次 数 来 考察 婴儿 的 行为 偏好 , 吸 哆 次 数 越 多 就 
表明 偏好 程度 越 高 。 最 后 的 结果 表明 3 个 月 内 的 
婴儿 比 起 合成 声音 更 偏爱 人 类 言语 发 声 。 随 后 ， 


都 对 人 声 刺 激 比 非 人 声 刺 激 的 反应 更 强烈 ， 且 反 
应 强度 随 着 年 龄 增长 而 稳定 增强 (Lloyd-Fox et al., 
2012)。 鉴 于 fNRIS 的 空间 分 辨 率 不 如 fMRI 高 ， 
Blasi 等 采用 fMRI 技术 对 3~7 月 婴儿 进行 了 研究 ， 
最 后 观察 到 婴儿 和 成 人 相似 , 右 侧 的 前 里 上 回 对 
非 言 语 人 声 有 选择 性 反应 (Blasi et al., 2011)。 
2.4 ”来 自 非 人 类 动物 的 证 据 

不 只 是 人 类 存在 对 人 声 有 特异 性 反应 的 脑 
( 即 TVA), 其 它 物种 也 存在 了 类 似 于 TVA 的 脑 区 。 
Petkov 等 (2008) 在 fMRI 实 验 中 发 现 清 醒 猕 猴 的 杜 
叶 对 猕猴 发 声 比 其 他 复杂 声音 有 更 强烈 的 反应 ， 
并 且 右 侧 匡 叶 的 前 部 可 能 参与 了 不 同 猕 猴 发 声 的 
识别 。 这 个 实验 首次 证 明了 狂 猴 有 类 似 于 人 类 
TVA 的 大 脑 皮 层 。 随 后 , 研究 者 对 猕猴 的 声音 选 
择 性 区 域 进行 了 单 细 胞 记录 ,结果 发 现 了 这 些 脑 
区 确实 存在 对 同 物种 发 声 有 选择 性 反应 的 神经 元 
(Perrodin, Kayser, Logothetis, & Petkov, 2011)。 这 
些 研 究 表明 人 声 的 特异 性 加 工 可 能 是 进化 的 产 
物 。 有 趣 的 是 ， 最 近 的 研究 发 现 狗 的 大 脑 中 也 存 
在 类 似 于 TVA 的 区 域 , 该 区 域 对 狗 叫 声 比 其 他 
声音 有 更 强烈 的 反应 , 这 表明 人 声 的 特异 性 加 工 
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研究 者 对 刚 出 生 1~5 天 的 新 生 儿 采用 oddball 范式 
进行 了 ERP 实验 , 结果 发 现 相 比 于 非 人 声 刺激 ， 
人 声 刺 激 诱发 更 大 的 “ 失 匹 配 反 应 ”(mismatch 
response, MMR), m HHE. MESHA Eei 
人 声 要 诱发 更 大 的 MMR (Cheng, Lee, Chen, Wang, 
& Decety, 2012)。 这 说 明 新 生 儿 不 仅 能 区 分 人 声 和 
非 人 声 ， 还 能 区 分 人 声 的 情绪 信息 Grossmann, 
Oberecker Koch 和 Friederici 等 (2010) 采 用 fNRIS 
考察 4 个 月 和 7 个 月 的 婴儿 聆听 人 类 声音 (言语 刺 
激 和 非 言语 刺激 ) 和 非 人 类 声音 时 的 大 脑 活 动 特 
点 ,人 研究 结果 发 现 7 个 月 婴儿 的 显 上 皮层 (superior 
temporal cortex, STC) 对 人 声 有 显著 的 选择 性 反应 ; 
而 4 个 月 大 婴儿 的 里 上 皮层 没有 表现 出 对 人 声 的 
选择 性 反应 。 一 些 研究 者 认为 4 个 月 和 7 个 月 的 
婴儿 对 人 声 和 非 人 声 刺激 的 反应 不 同 ,可 能 是 因 
为 Grossmann 等 的 实验 中 选取 的 人 声 刺 激 存 在 问 
题 (Lloyd-Fox, Blasi, Mercure, Elwell, & Johnson, 
2012)。 随 后 , Lloyd-Fox 等 (2012) 选 取 非 言语 人 声 
刺激 (如 和 哭 声 、 笑 声 、 咳 嗽 声 等 ) 和 熟悉 的 非 人 声 刺 
激 (如 水 流 声 、 玩具 的 嘎嘎 声 ) 作 为 人 声 材料 ， 这 就 
排除 了 言语 和 动物 发 声 的 干扰 ， 并 控制 了 声音 的 
熟悉 度 ,fNRIS 结果 表明 4~7 月 婴儿 的 双 侧 前 STC 


脑 区 可 能 在 800 万 年 前 就 已 经 出 现 了 (Andics & 
Miklosi, 2018; Andics, Gácsi, Faragó, Kis, & Miklósi, 
2014). 


3 ”人 声 加 工 的 神经 机 制 


人 声 加 工 是 以 发 声 为 基础 的 。 人 声 是 由 声 源 
侠 部 的 声带 ) 和 过 滤器 ( 喉 部 上 方 的 声 道 ) 相 互 作 
用 而 产生 的 (Ghazanfar, & Rendall, 2008)。 最 常见 
的 人 声 ( 浊 音 ) 是 具有 特定 基 频 的 声带 的 周期 性 振 
荡 。 个 体 在 正常 发 音 或 唱歌 时 所 达到 的 基 频 范围 
是 相当 宽泛 的 , 但 是 个 体 的 平均 基 频 是 声带 大 小 
的 函数 ,例如 男性 比 女性 或 小 防 有 更 大 的 声带 ， 
所 以 男声 的 基 频 值 更 低 (Latinus, & Belin, 2011)。 
喉 部 上 方 的 声 道 像 一 个 滤波 器 ,使 得 在 声 源 中 的 
特定 频率 上 产生 共振 ( 称 为 共振 峰 )。 共 振 峰 频率 取 
决 于 发 声 器 官 的 特定 结构 ， 也 取决 于 个 体 声 道 的 
大 小 (Latinus et al., 2011)。 因 此 当 发 出 同一 个 元 音 ， 
男性 比 女性 或 小 孩 具 有 更 低 的 共振 峰 频 率 。 发 声 
器 官 结构 的 细微 差异 决定 了 说 话 者 嗓音 的 独特 
性 。 值 得 注意 的 是 , 除了 正常 发 音 方式 ( 声 道 收缩 
的 程度 和 类 型 ) 外 ， 喉 部 也 能 发 出 “ 假 声 ” 和 “气泡 
音 ”， 这 就 造成 了 人 声 的 多 样 性 。 
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人 声 的 独特 发 声 机 制 使 得 人 声 的 声学 特征 不 
同 于 其 他 种 类 的 声音 。 与 其 他 种 类 的 声音 相 比 ， 
人 声 的 一 个 显著 特征 是 特定 共振 峰 的 频率 通常 会 
快速 地 变化 ,反映 了 发 声 器 官 从 一 个 位 置 移 向 另 
一 个 位 置 时 声 道 形状 的 变化 (Moore，2008)。 人 声 
的 另 一 个 显著 特征 是 更 加 谐 和 ， 即 人 声 在 时 间 频 
谱 上 比 大 多 数 声 音 类 别 更 规律 (除了 乐器 )。 这 种 
规律 可 以 通过 诸如 谐 波 噪 声 比 (harmonic-to-noise 
ratio) 、 基 频 微 扰 (jitteD 和 振幅 微 扰 (shimmen 等 指 
标 来 观测 到 ， 并 且 这 些 指标 可 以 用 于 计量 基 频 和 
振幅 的 短期 微 扰 (Latinus et al., 2011)。 此 外 , 不同 
于 其 他 种 类 声音 ， 人 声 的 声学 特征 还 传递 着 重要 
的 社会 相关 信息 (Belin et al., 2004)。 共 振 峰 频率 的 
变化 传递 着 语言 信息 (一 些 语言 除外 ， 如 普通 话 可 
以 根据 不 同 基 频 来 识别 )。 基 频 携带 着 语言 信息 和 
情感 韵律 信息 。 音 色 就 像 视觉 上 的 形状 一 样 ， 是 
说 话 者 身份 识别 的 重要 线索 。 

人 声 是 由 频率 和 强度 随时 间 变 化 的 声学 模式 


明了 大 脑 中 存在 专门 加 工 言语 信息 的 神经 通路 ， 
并 对 该 神经 通路 做 出 了 深入 探究 (Hickok & Poeppel, 
2016; Leonard, Cai, Babiak, Ren, & Chang, 2016; 
van der Burght, Goucha, Friederici, Kreitewolf, & 
Hartwigsen, 2019). 

语言 是 音 和 义 的 结合 体 。 一 些 研究 发 现 语音 
和 语义 的 加 工 过 程 是 相互 分 离 的 (Demonet et al., 
1992; Okada, Matchin, & Hickok, 2018; Rong, 
Isenberg, Sun, & Hickok, 2018; Vaden Jr, Muftuler, 
& Hickok, 2010). Æ 20 世纪 , Demonet 等 (1992) 
为 了 将 语音 和 语义 的 加 工 过 程 分 离 , 用 音节 、 音 
素 等 亚 词汇 的 识别 任务 来 考察 语音 加 工 ， 而 用 单 
词 、 句 子 等 的 识别 任务 来 考察 语义 加 工 。 他 们 要 
求 被 试 分 别 进行 音素 识别 任务 和 单词 识别 任务 ， 
最 后 的 结果 表明 两 种 任务 会 激活 不 同 的 脑 区 。 这 
就 揭示 了 语音 加 工 和 语义 加 工 涉及 不 同 的 脑 区 。 
此 外 , 脑 损伤 病人 的 研究 发 现 有 些 失语 症 患者 的 
音节 识别 能 力 受 损 , 但 单词 的 语义 理解 能 力 完好 ; 


组 成 的 。 当 声音 传人 人 耳 , 复杂 的 宽带 声音 能 通 
过 听觉 过 滤器 分 解 为 窄带 信息 ,然后 由 希 尔 伯 特 
变换 (Hilbert transform) 的 形式 进一步 分 解 成 变化 
速度 较 快 的 时 间 精 细 结 构 (emporal fine structure, 
TFS) 成 份 和 变化 速度 较 慢 的 包 络 (envelope) 成 份 
(Moore, 2008). TFS 在 基 频 、 言 语 的 感知 以 及 声 源 
定向 中 起 着 重要 作用 , 包 络 对 声音 的 分 类 、 音 色 
的 分 析 以 及 言语 的 可 懂 度 至 关 重 要 ， 且 这 两 种 成 分 
分 别 是 形成 “内 容 (what)”* 神 经 通路 和 “空间 (where)” 
神经 通路 的 声学 基础 (Apoux, Yoho, Youngdahl, & 
Healy, 2013; Zeng et al., 2004)。 来 自 同一 声音 的 包 
络 信 号 和 精细 结构 信号 可 以 在 知觉 层面 上 捆绑 成 
一 个 对 应 于 该 声 源 的 特定 听觉 客体 ， 这 就 使 得 听 
者 能 够 在 复杂 的 听觉 环境 中 区 分 不 同 说 话 者 的 身 
份 及 其 说 话 内 容 。 

研究 者 认为 人 声 和 人 脸 一 样 主要 传递 着 言 


而 有 些 患 者 的 音节 识别 能 力 完好 , 但 单词 语义 的 
理解 能 力 受 损 (Dial & Martin, 2017)。 这 也 进一步 
说 明了 语音 和 语义 的 加 工 可 能 是 相互 独立 的 。 

在 语音 加 工 方面 , 研究 者 通常 会 通过 操纵 语 
音 条 件 来 调节 语音 加 工 的 脑 活动 ， 如 操纵 词汇 的 
相 邻 语音 密度 (phonological neighborhood density) 
(Okada & Hickok, 2006)。 单 词 的 相 邻 语音 密度 可 
由 听 起 来 和 该 单词 相似 的 单词 的 数量 ( 即 改 变 该 
单词 的 一 个 音素 后 可 获得 新 单词 的 数量 ) 来 测 得 ， 
比如 单词 “rat" 的 相 邻 语音 密度 较 高 (cat bat, hat, 
ram, rag, rap 等 )， 而 单词 “orange” 的 相 邻 语音 密 
度 较 低 。Okada 和 Hickok (2006) 在 fMRI 实验 中 
发 现 与 低 密度 单词 相 比 ,被 试 在 聆听 高 密度 单词 
时 ， 双 侧 pSTS 会 有 更 大 的 激活 ， 这 就 表明 pSTS 
在 词汇 的 语音 加 工 过 程 中 起 着 重要 作用 。 后 来 ， 
Vaden 等 (2010) 通 过 操纵 单词 表 中 相同 音素 的 数 


语 、 情 绪 和 身份 信息 ， 且 三 种 信息 加 工 的 神经 通 
路 部 分 分 离 (Belin et al., 2004)。 本 文 接 下 来 将 阐述 
人 声言 语 、 情 绪 和 身份 信息 加 工 的 神经 机 制 。 
31 人 声言 语 信息 加 工 的 神经 机 制 
人 声 中 的 言语 信息 加 工 是 个 体 通过 听觉 通道 
接受 声音 流 ， 感 知 其 中 的 语音 信息 ， 并 获得 意义 
的 过 程 。 Belin 等 (2004) 结 合 过 去 20 多 年 的 研究 提 
出 大 脑 中 存在 专门 加 工人 声言 语 的 神经 通路 。 
前 ,大 量 正 常人 和 脑 损 伤 病人 的 神经 成 像 研 究 证 


T 


量 ( 即 音素 重复 程度 ) 以 考察 语音 加 工 的 神经 活动 。 
实验 者 向 17 名 被 试 呈现 不 同音 素 重 复 程度 ( 低 、 
中 、 高 ) 的 单词 列表 ， 最 后 观察 到 STS 的 中 部 
(middle STS, mSTS) 出 现 了 明显 的 重复 抑制 效应 ， 
即 该 区 域 会 随 着 语音 重复 程度 的 增高 而 反应 降 
低 。 这 一 结果 表明 mSTS 也 参与 了 语音 加 工 。 这 
些 研究 表明 pSTS 和 mSTS 在 语音 加 工 中 起 着 关 
键 的 作用 。 

关于 语义 加 工 的 研究 有 很 多 。Rodd, Davis 和 
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Johnsrude (2005) 在 fMRI 实验 中 要 求 被 试 聆听 包 
含 高 模糊 单词 的 句子 和 低 模 糊 单词 的 句子 。 相 对 
于 低 模糊 单词 ， 高 模糊 单词 的 加 工 还 需要 大 脑 对 
上 下 文 相关 词义 进行 激活 和 选择 。 研 究 结果 发 现 
高 模糊 单词 比 低 模糊 单词 更 能 激活 左 侧 里 下 皮层 
Å 


动 表 征 上 ， 其 功能 是 作为 一 个 界面 将 STS 编码 的 
语音 表征 转换 成 运动 区 域 (位 于 额 下 回 ) 编 码 的 发 
声 运动 表征 。 这 个 模型 较 全 面 得 解释 了 人 声言 语 
加 工 的 神经 机 制 。 

除 此 之 外 ,言语 不 仅 携带 着 音素 、 单 词 和 名 


g 后 部 。 这 表明 左 侧 杜 下 皮层 的 后 部 负责 句子 中 
的 词义 加 工 。 此 外 ， 脑 损伤 病人 的 研究 发 现 中 风 
患者 的 单词 理解 障碍 可 能 是 左 侧 的 后 里 叶 和 杜 中 
回 损伤 引起 的 (Bonilha et al., 2017)。 这 些 研究 表明 
词汇 -语义 加 工 可 能 涉及 了 左 侧 杜 叶 皮层 的 中 后 
部 。 而 相 比 于 词义 加 工 ， 当 被 试 在 对 句子 进行 语 
义理 解 时 ， 前 里 叶 (anterior temporal lobe, ATL) 的 
反应 更 强烈 (Brennan & Pylkkanen, 2017; den Ouden 
et al., 2019; Rice, Lambon Ralph, & Hoffman, 2015), 
不 过 ,ATL 在 句子 理解 中 起 着 何 种 作用 迄今 仍 不 
清楚 ,一 些 研 究 支持 ATL 与 句法 结构 的 建立 有 关 ， 
如 ATL 的 损伤 会 引起 复杂 句法 结构 的 理解 缺陷 
(Brennan & Pylkkaenen, 2012; den Ouden et al., 2019)。 
然而 ， 原 发 性 进行 性 失语 症 (primary progressive 
aphasia，PPA) 的 相关 研究 表明 ATL 与 组 合 语义 的 
加 工 有 紧密 的 联系 (Wilson et al., 2014)。 综 上 所 述 ， 
左 侧 杜 叶 的 中 后 部 是 负责 加 工 词汇 语义 的 重要 脑 
X, ATL 是 句法 结构 和 组 合 语义 加 工 的 神经 网 络 
中 的 重要 脑 区 。 

然而 , 语义 和 语音 加 工 过 程 并 不 是 完全 独立 
的 (Dial et.al., 2017; Dial, Mcmurray, & Martin, 
2019)。 研 究 发 现 威 尔 尼克 失语 症 患者 的 语音 感知 
和 语义 理解 都 存在 缺陷 , 且 语 义理 解 障碍 可 能 
是 由 语音 感知 的 缺陷 所 引起 的 ， 这 就 表明 语义 
加 工 可 能 在 一 定 程度 上 依赖 于 语音 加 工 (Robson， 
Pilkington, Evans, DeLuca, & Keidel, 2017)。 研 究 
者 推测 语音 和 语义 加 工 所 激活 的 脑 区 很 可 能 形成 
了 一 个 神经 回路 ， 共 同 协作 完成 言语 的 加 工 过 程 
(Hickok & Poeppel, 2007, 2016). Hickok 等 (2007) 
提出 的 双 通 路 模型 很 好 的 解释 了 言语 加 工 的 脑 机 


子 等 语言 内 容 ,， 还 包含 了 说 话 者 的 身份 信息 。 从 
进化 的 角度 来 说 ， 人 声 的 言语 加 工 和 身份 识别 都 
是 从 早期 的 人 声 加 工 能 力 中 发 展 出 来 的 ， 两 者 存 
在 较 密 切 的 关系 (Creel, & Bregman, 2011)。 目 前 ， 
一 些 研 究 证 明了 言语 信息 加 工 能 影响 人 声 身 份 的 
识别 。 例 如 ， 跨 文化 研究 表明 被 试 对 母语 说 话 者 
比 非 母 语 说 话 者 的 声音 识别 能 力 更 强 (Perrachione， 
Pierrehumbert, & Wong, 2009; Wester, 2012)。 脑 损 
伤 病人 的 研究 发 现 与 正常 个 体 相 比 ,， 读 写 障碍 者 
( 因 语 音 加 工 受 损 导致 阅读 能 力 障碍 的 患者 ) 对 母 
语 说 话 者 的 声音 识别 能 力 有 明显 的 损伤 ; 但 是 正 
常 个 体 和 读 写 障碍 者 对 非 母 语 说 话 者 的 声音 识别 
能 力 没 有 显著 差异 (Perrachione, Del Tufo, & Gabrieli, 
2011)。 这 些 研究 证 明 人 声 识 别 依赖 于 语言 能 力 。 
随后 , Fleming, Giordano, Caldara 和 Belin (2014) 
的 研究 发 现 即 使 母语 说 话 者 无 法 理解 言语 中 的 语 
义 内 容 ， 其 对 母语 的 身份 识别 能 力 还 是 要 强 于 非 
母语 说 话 者 。 这 进一步 说 明 人 声 的 身份 识别 更 依 
赖 于 言语 的 声学 结构 感知 而 不 是 语义 理解 能 力 。 
3.2 ”人 声 情绪 信息 加 工 的 神经 机 制 

在 日 常 交流 中 ， 人 们 能 从 变化 的 声学 线索 
提取 情绪 信息 ， 进 而 推断 出 说 话 者 的 情绪 状态 。 
于 言语 情绪 韵律 (speech prosody) 既 包含 情绪 信 
息 又 包含 语义 内 容 , 两 种 人 声 信息 可 能 会 相互 影 
响 ， 且 言语 情绪 韵律 中 特定 的 语言 不 利于 跨 文化 
的 比较 (Belin et al., 2011)。 所 以 , 研究 者 通常 使 用 
由 情绪 语调 发 出 的 无 意义 假 词 组 成 的 非 言 语句 子 
或 非 语言 发 声 (如 笑 声 、 惊 叫 声 ) 来 考察 人 声 情 绪 信 
息 加 工 的 特征 (Belin et al., 2011). Bestelmeyer, 
Rouger, DeBruine 和 Belin (2010) 首 次 采用 非 言语 


a 


制 。 在 双 通 路 模型 中 ， 双 侧 mSTS 和 pSTS 负责 声 
音 刺 激 的 语音 加 工 和 表征 。 随 后 ， 该 模型 分 出 两 
条 通路 : 一 条 是 腹 侧 通路 ， 它 将 基于 声音 的 语音 
表征 映射 到 意义 表征 上 ， 即 对 言语 信息 进行 意义 
FES. TERE A, JA SMI (posterior lateral 
temporal lobe) 负 责 听 觉 刺激 的 词汇 -语义 访问 ， 
ATL 参与 高 级 句法 和 复合 语义 加 工 。 另 一 条 是 背 
侧 通路 ， 它 将 基于 声音 的 语音 表征 映射 到 发 声 运 


人 声 的 适应 范式 探索 了 人 声 情 绪 加 工 。 适 应 是 指 
在 持续 的 刺激 过 程 中 ,大 脑 会 更 偏向 于 对 具有 与 
刺激 特征 相反 的 刺激 进行 反应 。 研 究 者 通常 利用 
适应 来 隔离 和 扭曲 某 一 神经 群 对 特定 属性 的 感知 ， 
从 而 揭示 该 神经 群 能 对 特定 的 刺激 属性 做 出 反 
应 。 在 该 研究 中 ,被 试 对 人 声 情 绪 ( 恐 惧 或 愤怒 ) 
产生 了 适应 效应 , 但 是 当 人 声 的 声学 特性 和 情绪 
特性 被 夸大 时 ， 适 应 效应 没有 得 到 增强 
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(Bestelmeyer et al., 2010)。 人 研究 者 认为 人 声 情 绪 信 
息 的 适应 效应 不 仅仅 是 声学 特征 的 低层 次 适应 引 
起 的 , 也 是 由 于 人 声 情绪 的 神经 表征 的 高 层次 适 
应 。 这 就 说 明 人 声 情绪 加 工 可 能 涉及 了 一 条 独立 
的 神经 通路 。 后 来 , Schirmer 和 Gunter (2017) 利 用 
电 生 理 技术 发 现 了 人 声 情 绪 的 加 工 过 程 可 能 独立 
其 他 人 声 信息 加 工 。 他 们 让 被 试 聆听 带 有 惊奇 、 
中 性 情绪 的 人 声 刺 激 与 非 人 声 刺激 ，ERP 结果 表 
明 相 比 于 非 人 声 刺激 ， 人 声 会 诱发 更 大 的 N1 和 
P2 成 分 ， 而 带 有 情绪 的 人 声 刺 激 还 会 诱发 更 大 的 
晚期 正成 分 。 研 究 者 认为 大 脑 经 过 人 声 和 非 人 声 
的 区 分 之 后 会 对 人 声 中 的 情绪 线索 进行 整合 
(Schirmer & Gunter, 2017)。 

神经 心理 学 研究 表明 右 半 球 受 损 比 左 半球 受 
损 对 个 体 识 别人 声 情绪 的 能 力 的 损害 更 大 (Guranski 
& Podemski, 2015; Shamay-Tsoory, Tomer, Goldsher, 
Berger, & Aharon-Peretz, 2004)。 右 半球 损伤 的 病 
人 无 法 判断 句子 中 表达 的 情绪 意义 ， 却 能 正常 感 
知 句子 的 内 容 ; 而 左 半球 损伤 的 病人 无 法 判断 名 
子 内 容 , 却 能 够 识别 出 句子 中 的 情绪 性 表达 (Patel 
et al., 2018; Ross & Monnot, 2011)。 此 外 ， 大量 神 
经 成 像 研究 发 现 人 声 的 情绪 韵律 的 识别 会 显著 激 
活 右 侧 额 下 皮层 、 右 侧 杜 中 回 、 右 侧 STG 等 右 半 
球 脑 区 (Friederici & Alter, 2004; Sammler, Grosbras, 
Anwander, Bestelmeyer, & Belin, 2015), Alt, if 
多 研究 者 们 认为 专门 负责 加 工人 声 情绪 信息 的 神 
经 网 络 位 于 右 半球 。 

然而 近年 来 ， 越 来 越 多 的 脑 成 像 研究 表明 情 
绪 韵 律 加 工 可 能 不 止 涉及 到 右 半 球 ， 还 涉及 广泛 
的 双 侧 神经 网 络 (Peg, Kotz, & Belin, 2017; Schirmer 
& Kotz, 2006; Ethofer et al., 2012; Zhang, Zhou, & 
Yuan, 2018). Frithholz 和 Grandjean (2013) 认 为 情 
绪 声 音 能 激活 双 侧 额 下 皮层 (inferior frontal cortex, 
IFC), 且 左 、 右 侧 IFC 的 功能 活动 表现 出 相似 的 
前 后 梯度 变化 。 此 外 , IFC 不 仅仅 涉及 情绪 声音 的 
注意 加 工 和 认 知 评价 ,还 涉及 对 情绪 声音 的 前 注 
意 加 工 和 内 隐 加 工 。 并 且 IFC 的 不 同 亚 区 具有 不 
同 的 功能 ， 尖端 腹 侧 额 下 回 主要 负责 情绪 声音 的 
类 别 加 工 ， 而 尾 端 背 侧 额 下 回 主要 加 工 情绪 声音 
的 时 间 特 征 信 息 (Friihholz et al., 2013)。Ethofer 等 
(2012) 的 弥散 张 量 成 像 研 究 (diffusion tensor imaging) 
发 现在 情绪 韵律 识别 中 ， 双 侧 甘 上 回 (STG) 与 其 
同 侧 的 内 侧 膝 状 体 medial geniculate body, MGB) , 


双 侧 顶 下 叶 (inferior parietal lobe, IPL) 与 其 同 侧 的 
额 下 回 (inferior frontal gyrus, IFG) 具 有 较 强 的 联 
结 。 双 侧 STG 和 其 同 侧 MGB 的 联结 反映 了 人 声 
中 情绪 线索 的 早期 输入 ， 双 侧 IPL 与 其 同 侧 IFG 
的 联结 反映 了 大 脑 在 更 高 层次 上 对 人 声 情绪 信息 
和 空间 位 置 的 加 工 (Ethofer et al., 2012; Zhang et 
al.，2018)。 这 说 明 双 侧 大 脑 皮 层 都 参与 了 情绪 声 
音 的 识别 。 

除 此 之 外 ,研究 发 现 人 声 的 情绪 加 工 可 能 还 
涉及 皮层 下 结构 ， 比 如 岛 叶 、 禁 仁 核 等 (Bestelmeyer, 
Maurage, Rouger, Latinus, & Belin, 2014; Frühholz, 
Trost, & Kotz, 2016; Leitman, Edgar, Gamez, & 
Roberts, 2016), Bestelmeyer 等 (2014) 使 用 声音 的 
适应 范式 发 现 双 侧 STS FAST HR RE 
续 刺 激 的 物理 声学 特征 差异 更 敏感 ， 而 前 额 区 域 
和 脑 岛 的 前 部 对 愤怒 - 疏 惧 连续 刺激 的 情绪 感知 
差异 更 敏感 。 这 项 研究 表明 除了 额 杜 叶 皮层 ， 碍 
仁 核 和 前 脑 岛 也 参与 了 人 声 的 情绪 加 工 ， 其 中 奉 
仁 核 负责 分 析 情 绪 声 音 的 声学 特征 ,前 脑 岛 负 责 
人 声 情绪 的 认 知 表征 
Schirmer 和 Kotz (2006) 提 出 的 人 声 情绪 加 工 
的 多 阶段 模型 对 情绪 韵律 的 加 工 进行 了 很 好 的 解 
FE, 并 强调 了 人 声 情 绪 韵 律 的 加 工 需要 双 侧 神经 
网 络 协调 进行 。 该 模型 把 人 声 情绪 加 工分 成 感觉 
加 工 阶段 、 整 合 阶段 和 认 知 评价 阶段 。 在 声音 刺 
激 出 现 后 的 100 ms 左右 ， 初 级 和 次 级 听觉 皮层 对 
输入 刺激 的 声学 信息 (如 振幅 、 时 间 、 基 频 等 ) 进 行 
提取 和 分 析 。 在 刺激 出 现 后 的 200 ms 左右 ， 前 杜 
上 沟 或 回 (aSTS/G) 和 禁 仁 核对 具有 情绪 意义 的 声 
学 线索 (如 效 价 .唤醒 ,特定 情绪 特性 等 ) 进 行 整 合 。 
在 刺激 开始 后 的 400 ms 左右 , 右 侧 IFG AEA 
质 (orbitofrontal cortex, OFC) 负 责 对 情绪 韵律 进行 
更 高 级 的 认 知 评价 ， 左 侧 额 下 皮层 负责 加 工 言 语 
中 的 语义 情绪 信息 。 

33 人 声 身 份 信 息 加 工 的 神经 机 制 

由 于 声带 、 喉 头等 发 声 器 官 的 结构 特征 存在 
个 体 差异 ， 所 以 不 同 个 体 嗓 音 的 声学 参数 也 存在 
着 细微 的 差异 。 有 研究 者 认为 大 脑 能 对 不 同 嗓音 
的 独特 声学 特征 进行 感知 分 析 ， 然 后 将 输入 的 人 
声 感知 和 储存 在 “人 声 识别 单元 (voice recognition 
units)” 中 的 人 声 表 征 进行 对 比 ， 最 后 识别 出 人 声 
身份 (Belin et al., 2004; Blank, Wieland, & von 
Kriegstein, 2014; Ellis, Jones, & Mosdell, 1997), ix 
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种 传统 观念 强调 人 声 身 份 的 加 工 过 程 是 按照 从 身 
份 感知 阶段 到 身份 识别 阶段 的 顺序 进行 的 。 通 俗 
的 来 说 ， 人 声 感知 是 指 区 分 不 同 陌生 说 话 者 发 出 
的 声音 ， 人 声 识别 是 指 再 认 出 熟悉 的 声音 。 然 而 ， 
另外 一 些 研 究 者 反对 人 声 身 份 的 加 工 过 程 是 按照 
这 种 严格 的 顺序 进行 的 。 脑 损伤 研究 发 现 右 里 叶 
肿瘤 患者 能 正常 识别 熟悉 的 人 声 , 却 难以 区 分 不 
熟悉 的 人 声 ， 这 表明 不 熟悉 声音 的 区 分 过 程 和 熟 
悉 声 音 的 识别 过 程 可 能 部 分 独立 (Papagno, 
Mattavelli, Casarotti, Bello, & Gainotti, 2017)。 此 外 ， 
MEG 研究 发 现 大 脑 在 大 约 200 ms 的 时 间 点 开始 
对 不 熟悉 人 声 和 熟悉 人 声 同时 进行 反应 ， 这 就 揭 
示 了 人 声 -身份 的 感知 和 识别 是 同时 进行 的 (Schall， 
Kiebel, Maess, & von Kriegstein, 2015)。 这 些 人 研究 
说 明 人 声 身份 的 感知 过 程 和 识别 过 程 可 能 部 分 独 
立 且 并 列 存在 。 
脑 损伤 研究 发 现 人 声 失 认 症 (phonagnosic) 患 
者 能 够 理解 人 声 中 的 情绪 内 容 和 言语 含义 ， 却 不 
能 通过 声音 识别 出 个 体 身 份 ， 这 就 表明 人 声 身 份 
的 加 工 可 能 涉及 了 独立 的 神经 通路 (Roswandowitz 
et al., 2014), 一些 研究 者 把 人 声 身 份 加工 的 神经 
通路 称 为 核心 人 声 系 统 ， 该 系统 主要 包括 里 横 
(heschl's gyrus, HG), 、 杜 平面 (planum temporale, 
PT)、 杜 上 回 / 沟 的 前 中 后 部 以 及 部 分 里 中 回 / 沟 
(Roswandowitz, Schelinski, &von Kriegstein, 2017; 


E 


Schelinski, Borowiak, & von Kriegstein, 2016). iX 


些 区域 在 人 声 - 身 份 信息 的 加 工 过 程 中 发 挥 着 潜 


等 (2017) 发 现 pSTS/G 在 不 熟悉 人 声 的 区 分 过 程 中 
起 了 关键 作用 。 他 们 先 让 被 试 学 习 一 系列 人 声 身 
份 ， 然 后 要 求 被 试 判 断 呈 现 的 人 声 是 来 自学 习 过 
的 声音 还 是 陌生 的 声音 。 最 后 的 结果 观察 到 pSTS/G 
对 陌生 声音 的 反应 比 熟 悉 声音 的 反应 更 强烈 。 人 
声 中 声学 特征 的 提取 (如 频谱 包 络 ) 和 说 话 人 身份 
变化 的 感知 可 能 涉及 了 共同 的 脑 区 ， 即 pSTS/G。 

研究 者 们 还 发 现 熟悉 人 声 的 身份 识别 是 由 
STS/G 前 部 到 中 部 的 脑 区 负责 (Belin & Zatorre, 
2003; Hasan, Valdessosa, Gross, & Belin, 2016; 
Luzzi et al., 2018; Schelinski et al., 2016). Belin 等 
(2003) 利 用 声音 适应 范式 发 现 被 试 在 适应 同一 说 
话 者 发 出 的 不 同音 节 后 ( 即 适 应 说 话 者 的 身份 后 )， 
aSTS/G 反应 强度 下 降 ， 这 就 表明 该 区 域 对 人 声 身 
份 进行 了 识别 。 而 被 试 在 适应 不 同 说 话 者 发 出 的 
同一 音节 后 ( 即 适应 言语 后 )，aSTS/G 的 反应 没有 
减弱 ， 这 也 进一步 表明 该 区 域 可 能 只 对 人 声 身 
份 进行 加 工 ， 而 对 言语 信息 没有 反应 。 另 外 ， 研 
究 者 向 被 试 旦 现 一 系列 陌生 人 声 的 样本 , 这些 人 
声 样本 被 编辑 成 以 线性 的 方式 与 原型 声音 偏离 
(Latinus, McAleer, Bestelmeyer, & Belin, 2013)。 原 
型 声音 是 在 一 个 三 维 人 声 空间 中 将 多 个 人 声 的 基 
频 (fundamental frequency) 、 共 振 峰 分 散 (formant 
dispersion) 和 谐 波 噪声 比 (harmonics-to-noise ratio) 
等 声学 特征 进行 平均 而 构建 起 来 的 。 结 果 发 现 识 
别 偏离 原型 的 声音 比 识别 接近 原型 的 声音 更 能 激 
活 mSTS/G。 因 此 , 研究 者 认为 mSTS/G 可 能 参 


在 的 不 同 作用 , 并且 在 功能 和 结构 上 相互 连接 、 
相互 作用 (Roswandowitz et al., 2017). 

在 核心 人 声 系统 中 ， 杜 横 回 (heschl's gyrus, 
HG), 、 杜 平面 (planum temporale, PT) 和 后 里 上 沟 / 回 
(pSTS/G) 负 责 人 声 -身份 的 声学 特征 分 析 (Andermann， 
Patterson, Vogt, Winterstetter, & Rupp, 2017; von 
Kriegstein, Smith, Patterson, Kiebel, & Griffiths, 
2010; Elmer, Hanggi, & Jancke, 2016; Zaske, Hasan, 
& Belin, 2017)。 例如, HG 对 不 同人 声 身 份 的 音 高 
变化 更 敏感 (Andermann et al., 2017); pSTS/G 对 人 
声 的 音色 变化 更 为 敏感 (von Kriegstein et al., 2010); 
PT 和 pSTS 不 仅 对 变化 的 人 声 身 份 更 敏感 ， 还 对 
与 人 声 身 份 线索 有 关 的 时 频 特 性 的 变化 更 加 敏感 
(Elmer et al., 2016)。 人 声 加 工 的 一 个 重要 功能 是 
区 分 不 同 陌生 说 话 人 的 身份 , 而 人 声 身份 变化 的 
感知 和 人 声 身 份 的 声学 特征 分 析 密 切 相 关 。Ziiske 


与 了 人 声 身 份 中 独特 的 声学 特征 分 析 和 身份 识别 
之 间 的 中 间 计 算 过 程 (Latinus et al., 2013)。 换 句 
话说 ， 里 上 回 / 沟 的 中 部 可 能 促进 了 人 声 身 份 加 工 
过 程 中 里 上 回 / 沟 的 后 部 和 前 部 之 间 功 能 连接 
(Roswandowitz, Kappes, Obrig, & von Kriegstein, 
2017). 

为 了 解释 人 声 身份 信息 的 神经 机 制 , Maguinness, 
Roswandowitz 和 von Kriegstein (2018) 提 出 了 整合 
模型 。 根 据 整合 模型 人 声 身份 信息 在 感知 层面 
的 加 工 ， 是 对 身份 信息 的 声学 特征 进行 提取 与 合 
并 ( 即 身 份 特征 分 析 )， 主 要 由 后 里 上 沟 / 回 (DSTS/ 
G). WE APT ART AMI El (anterolateral HG) 
负责 。 在 人 声 身 份 识别 层面 上 ,那些 被 提取 的 人 
声 身 份 特征 将 在 STG/S 的 中 间 区 域 中 与 已 存储 的 
人 声 原 型 进行 比较 ,进而 选择 出 偏离 人 声 原型 的 


特征 。 然 后 ，aSTG/S 和 mSTS/G 会 对 偏离 的 特征 
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与 “存储 参照 图 式 ” 进 行 比较 ,并 计算 出 两 者 的 差 
距 ， 即 参照 图 式 比 较 (d)。 存 储 的 参照 图 式 是 每 个 
人 声 身份 所 特有 的 , 位 于 aSTG/S。 如 果 两 种 图 式 
足够 匹配 ， 即 “d” 低 于 某 个 知觉 辣 值 (Th)， 人 们 就 
会 产生 一 种 熟悉 感 ， 即 人 声 - 身 份 识别 (Fontaine， 
Love, & Latinus, 2017)。 如 果 两 者 不 匹配 ， 人 们 会 
感觉 到 呈现 的 声音 是 陌生 的 ,迭代 循环 会 自动 启 
动 。 这 个 迭代 循环 包括 了 语音 身份 特征 分 析 和 参 
照 模式 比较 两 个 过 程 ， 参 照 图 式 是 通过 多 次 的 迭 
代 循 环 而 建立 起 来 的 。 
根据 听 - 视 觉 整 合 模型 ， 人 声 加 工 和 人 脸 加 工 
系统 在 多 个 加 工 阶 段 会 产生 交互 作用 (Maguinness 
et al., 2018)。 这 一 观点 得 到 了 一 些 研 究 的 支持 。 
来 自 脑 损伤 病人 的 研究 发 现 ， 相 比 正常 人 ,发 展 
性 人 脸 失 认 症 患者 对 于 熟人 声音 的 识别 出 现 了 障 
碍 , 但 对 于 陌生 人 声音 的 识别 却 表 现 正常 (Liu, 
Corrow, Pancaroglu, Duchaine, & Barton, 2015; von 
Kriegstein et al., 2008)。 神 经 成 像 研究 表明 当 被 试 
对 熟人 的 声音 进行 识别 时 ， 梭 状 回 人 脸 识别 区 


强 ， 而 对 人 声 的 反应 更 强 一 点 ， 这 种 情况 只 能 
认为 是 人 声 加 工 的 优先 性 (voice-preferential)， 而 
不 是 人 声 加 工 的 特异 性 。 尽 管 上 里 区 被 传统 地 认 
为 是 人 声 特 异性 区 域 ， 但 近年 来 ， 越 来 越 多 的 研 
究 发 现 上 杜 区 不 仅 对 韵律 、 音 高 等 声学 特征 有 强 
烈 的 反应 ， 对 乐器 声 、 环 境 声 等 非 人 类 声音 也 有 
强烈 的 反应 (Armony, Aubé, Angulo-Perkins, Peretz, 
& Concha, 2015; Leaver et al., 2010; Leech, & Saygin, 
2011). PK, ARSE UAE Bie OL AS A) oR 
激活 反映 得 不 是 人 声 的 特异 性 加 工 ， 而 是 对 不 同 
种 类 声音 刺激 进行 的 一 般 高 级 听觉 加 工 过 程 ， 只 不 
过 对 人 声 的 敏感 程度 更 高 (Leech, & Saygin, 2011). 
其 次 , Moerel, de Martino 和 Formisano (2012) 的 研 
究 发 现 人 声 选择 性 区 域 对 人 声 的 低频 特征 有 选择 
性 反应 ,这 表明 听觉 皮层 中 的 人 声 选择 性 区 域 不 
能 解释 为 人 声 加 工 的 独立 模块 ， 同 时 也 说 明 人 声 
感知 与 一 般 声 学 机 制 之 间 可 能 存在 着 紧密 联系 。 
另外 , Leaver 等 (2010) 发 现 听 党 皮层 对 人 声 和 非 人 
声 的 频谱 结构 和 时 间 调 制 特征 具有 选择 性 反应 ， 


(FFA) 和 人 声 识别 区 (STG/S) 会 有 较 强 的 功能 连接 
和 结构 连接 (Schall, & von Kriegstein, 2014; von 
Kriegstein, Kleinschmidt, & Giraud, 2006; von 
Kriegstein, Kleinschmidt, Sterzer, & Giraud, 2005)。 
此 外 ， 人 脸 加 工 网 络 中 的 其 他 区 域 也 参与 人 声 识 
别 加 工 。 例 如 ，Blank，Kiebel 和 von Kriegstein 
(2015) 使 用 人 声 - 人 脸 启 动 范式 发 现 枕 叶 人 脸 识 
别 区 (occipital face area，OFA) 对 人 声 的 物理 特征 
和 刁 份 信 息 加 工 都 敏感 ， 前 里 叶 人 脸 识 别 区 
(anterior temporal lobe face area, aTL-FA) 和 FFA 
能 对 人 声 的 身份 信息 进行 表征 。 这 些 研 究 说 明 视 
觉 人 脸 加 工 系统 可 能 在 人 声 身 份 识别 中 起 着 整合 
的 作用 。 


4 研究 展望 


第 一 ， 人 声 加 工 的 特异 性 问题 还 有 待 进一步 
探讨 。 首 先 , 神经 成 像 研究 很 难 确定 人 脑 中 的 特 
异性 反应 ,并 且 研 究 者 们 对 特异 性 神经 反应 所 参 
照 的 标准 至 今 仍 没 有 达到 共识 (Pernet,，Schyns, & 
Demonet, 2007; Leech, & Saygin, 2011)。 以 往 人 研究 
通常 把 人 声 加 工 比 其 他 类 型 声音 加 工 有 更 强 的 神 
经 激活 看 作 是 人 声 的 特异 性 加 工 (Pernet et al., 2007; 
Leech, & Saygin, 2011). 不 过 , Pernet 等 (2007) 认 为 
如 果 某 一 区 域 对 一 些 声学 刺激 的 神经 反应 都 有 增 


并 认为 听觉 皮层 可 能 是 根据 声音 中 特定 的 频率 和 
时 间 特 征 对 声音 进行 分 类 。 因 此 ， 人 声 加 工 的 特 
异性 可 能 是 大 脑 对 人 声 中 特定 的 声学 特征 具有 选 
择 性 的 结 

第 二 ,未 来 还 需 对 特殊 群体 的 人 声 加 工 进行 
深入 探究 。 目 前 ,孤独 症 谱系 障碍 (autism spectrum 
disorders，ASD) 者 在 2 岁 以 前 无 法 被 确诊 , 这 给 
ASD 者 的 治疗 和 干预 带 来 了 限制 。 研 究 者 们 认为 
高 风险 ASD 群体 的 前 瞻 性 纵向 研究 有 助 于 研究 
者 找 出 ASD 的 治疗 方法 和 提高 ASD 的 干预 效率 
(Jones, Gliga, Bedford, Charman, & Johnson, 2014; 
Sperdin & Schaer, 2016)。 已 有 研究 发 现 ASD 儿童 
和 ASD 成 人 都 不 会 对 人 声 进 行 选择 性 反应 ， 但 关 
于 高 风险 ASD 婴儿 的 相关 研究 偏 少 (Bidet-Caulet 
et al., 2017; Charpentier et al., 2018; Fusaroli, 
Lambrechts, Bang, Bowler, & Gaigg, 2016). Blasi 
等 (2015) 发 现 无 ASD 家 族 遗 传 史 的 低 风 险 婴 儿 能 
对 人 声 进 行 选 择 性 反应 ， 而 有 ASD 家 族 遗 传 史 的 
高 风险 婴儿 对 人 声 和 非 人 声 的 加 工 不 存在 显著 差 
异 。 这 一 初步 的 研究 表明 异常 的 人 声 加 工 在 未 来 
可 能 成 为 ASD 的 确诊 指标 , 但 未 来 还 需 对 此 进行 
进一步 验证 。 除 此 之 外 , ASD 儿童 和 ASD 成 人 的 
听觉 加 工 系统 对 声音 刺激 进行 加 工 的 早期 阶段 会 
出 现 功能 和 结构 异常 。 比 如 ，Edgar 等 (2015) 发 现 
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和 典型 发 育儿 童 相 比 , 6~14 岁 ASD 儿童 的 初级 听 

区 域 会 出 现 异 常 的 发 展 趋势 。Miron 等 (2016) 
证 明了 异常 听 性 脑 干 反应 的 0~3 个 月 婴儿 和 
1.5~3.5 岁 幼儿 长 大 以 后 会 被 诊断 为 ASD。 未 来 研 
究 还 可 以 探究 听觉 系统 的 早期 加 工 阶段 异常 如 何 
影响 自 闭 症 患者 的 言语 加 工 发 展 。 

第 三 , 研究 者 们 对 自我 面孔 进行 了 大 量 的 探 
究 ， 而 对 自我 声音 的 关注 相对 较 少 。 这 是 由 于 当 
人 们 说 话 时 听 到 的 自我 声音 既 能 通过 空气 传导 又 
能 通过 骨 传 导 , 但 是 自我 声音 的 录音 在 实验 中 只 
能 通过 空气 传导 。 近 年 来 ， 越 来 越 多 的 研究 发 现 
自我 录音 也 能 诱发 自我 效应 ,并 且 精 神 分 裂 症 和 
自 闭 症 患 者 对 自我 录音 的 加 工 出 现 异常 ， 所 以 越 
来 越 多 的 研究 者 开始 关注 自我 声音 加 工 的 神经 机 
制 (Pinheiro, Farinha-Fernandes, Roberto, & Kotz, 
2019; van Veluw & Chance, 2014)。 但 迄今 为 止 ， 研 
究 者 们 只 对 自我 声音 加 工 的 神经 机 制 进行 了 初步 
的 探索 ,未 来 还 需 对 以 下 几 个 方面 进行 深入 探 
究 。 首 先 ， 研 究 发 现 与 自我 声音 相 比较 ， 熟 悉 和 陌 
生 的 他 人 声音 都 能 诱发 更 大 的 P3a (Graux et al., 
2013; Graux, Gomot, Roux, Bonnet-Brilhault, & 
Bruneau, 2015)。 这 表明 自我 声音 的 识别 过 程 可 能 
不 同 于 他 人 声音 的 识别 过 程 (Graux et al.,2013, 
2015)。 然 而 , 不同 熟 悉 程 度 的 声音 (如 名 人 的 声 
音 、 朋 友 的 声音 、 为 了 测试 而 学 习 过 的 声音 、 父 
母 的 声音 或 者 兄弟 姐妹 的 声音 ) 可 能 会 引起 不 同 
的 神经 活动 (Graux et al., 2013)。 为 了 排除 自我 声 
音 可 能 属于 某 种 类 型 的 熟悉 声音 ,未 来 研究 应 对 
自我 声音 和 不 同 熟 悉 程度 的 人 声 的 加 工 过 程 进 行 
深入 的 比较 。 其 次 , Graux 等 (2013, 2015) 发 现在 不 
注意 条 件 下 ， 自 我 声音 会 比 熟悉 人 声 或 陌生 人 声 
诱发 更 小 的 P3a 成 分 而 Conde, Goncalves 和 
Pinheiro (2015) 发 现在 注意 条 件 下 ， 自 我 声音 比 非 
自我 声音 诱发 更 大 的 P3 振幅 ,这 些 研究 表明 自我 
声音 和 非 自我 声音 加 工 受 到 注意 资源 的 影响 ,未 
来 需 深入 探究 注意 资源 如 何 调节 自我 声音 和 非 自 
我 声音 的 加 工 。 男 外 ,研究 者 发 现 自我 和 非 自我 
的 音节 声音 能 获得 同等 的 注意 资源 ， 而 自我 的 单 
词 声音 比 非 自 我 的 单词 声音 获得 更 多 的 注意 资源 
(Conde, Goncalves, & Pinheiro, 2018)。 这 就 表明 自 
我 人 声 加 工 的 神经 机 制 受到 任务 性 质 和 刺激 类 型 
的 影响 , 未 来 研究 可 对 这 些 影响 进行 考虑 。 最 后 ， 
Pinheiro 等 (2016) 发 现在 言语 加 工 过 程 中 ， 自 我 和 


他 人 声音 对 单词 的 语义 情绪 加 工 有 不 同 的 影响 。 
随后 , 他 又 发 现 与 非 自 我 声音 相 比 , 神经 分 裂 症 患 
者 对 自我 声音 中 的 负 性 情绪 内 容 更 加 敏感 (Pinheiro 
et al., 2017)。 未 来 需要 在 神经 层面 上 进一步 探究 
正常 人 和 精神 分 裂 症 患者 如 何 加 工 不 同情 绪 类 型 
的 自我 -他 人 声音 。 
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Abstract: The human voice is the most familiar and important sound in the human auditory environment, 
conveying large amounts of socially relevant information. Similar to face processing, there is also a 
functional specialization in brain for voice processing. Neuroimaging and electrophysiology studies have 
demonstrated that the temporal voice areas (TVAs) showed specific response to human voices. In addition, 
researchers have also observed the homologues of TVAs in non-human brain. Human voices can convey 
speech, affective and identity information, which are extracted and further processed in three interacting but 
partially dissociated neural pathways. To explicate these three functional pathways, researchers have 
proposed three corresponding models including the dual-stream model of speech processing, multi-stage 
model of vocal emotional processing and integrative model of voice-identity processing. In the future, 
researchers should further investigate whether voice-selective activity can be explained by the selective 
processing of specific acoustic features of voice and focus on neural mechanisms of voice processing in 
special populations (e.g. schizophrenia and autism). 

Key words: voice processing; specialization; the temporal voice areas (TVA); speech processing; emotional 


prosody; voice-identity recognition 


